\section{主方程良定性与概率守恒}
\label{app:master-equation}

本附录证明连续时间主方程~\eqref{eq:master-equation}在治理约束下的良定性,并验证概率守恒。

{\color{red}\textbf{[核心问题]:} 主方程描述概率$p_i^{(r)}(t)$的演化。我们必须证明三件事:1)解存在且唯一;2)概率总和守恒$\sum_r p_i^{(r)} = 1$;3)解保持非负$p_i^{(r)} \geq 0$。这三条确保数学对象确实是``概率分布''。}

\subsection{Q-矩阵结构与概率守恒}

主方程的矩阵形式为:
\begin{equation}
    \frac{\diff \mathbf{p}_i}{\diff t} = Q_i \mathbf{p}_i,
\end{equation}
其中$\mathbf{p}_i = (p_i^{(1)}, p_i^{(2)}, \ldots, p_i^{(|\mathcal{R}_\ell|)})^\top$,Q-矩阵元素为:
\begin{equation}
    (Q_i)_{rr'} = \begin{cases}
        W_{r' \to r}^{(i,\ell)} & \text{如果 } r \neq r' \\
        -\sum_{r'' \neq r} W_{r \to r''}^{(i,\ell)} & \text{如果 } r = r'
    \end{cases}.
\end{equation}

{\color{red}\textbf{[Q-矩阵的物理意义]:} 非对角元$(Q_i)_{r'r}(r' \neq r)$是``流入速率''——从规则$r'$跳到$r$的速率。对角元$(Q_i)_{rr}$是``总流出速率''(带负号)——从$r$跳走的总速率。这个结构自动保证概率守恒。}

概率守恒的关键性质是行和为零:
\begin{equation}
    \sum_{r} (Q_i)_{rr'} = 0 \quad \forall r'.
\end{equation}

证明:
\begin{align}
    \sum_{r} (Q_i)_{rr'} &= \sum_{r \neq r'} W_{r' \to r}^{(i,\ell)} + \left(-\sum_{r'' \neq r'} W_{r' \to r''}^{(i,\ell)}\right) \\
    &= \sum_{r \neq r'} W_{r' \to r}^{(i,\ell)} - \sum_{r \neq r'} W_{r' \to r}^{(i,\ell)} \\
    &= 0.
\end{align}

{\color{red}\textbf{[为什么行和为零保证概率守恒?]:} 对$\sum_r p_i^{(r)}$求导:
$$\frac{d}{dt}\sum_r p_i^{(r)} = \sum_r \sum_{r'} (Q_i)_{rr'} p_i^{(r')} = \sum_{r'} p_i^{(r')} \underbrace{\sum_r (Q_i)_{rr'}}_{=0} = 0$$
所以如果初始$\sum_r p_i^{(r)}(0) = 1$,则对所有$t$都保持为1。这是概率``不创生不湮灭''的数学表达。}

\subsection{治理约束下的转移速率}

转移速率~\eqref{eq:transition-rates}带有硬约束指示器:
\begin{equation}
    W_{r \to r'}^{(i,\ell)} = \lambda_0 \exp\bigl(\beta_\ell \Delta Q_\ell^{(i)}(r \to r') + \lambda_\ell^\top \Delta g_\ell^{(i)}(r \to r')\bigr) \cdot \mathbb{1}_{g_\ell(r') \leq 0}.
\end{equation}

{\color{red}\textbf{[治理约束的作用]:} 指示器$\mathbb{1}_{g_\ell(r') \leq 0}$像``护栏''——任何违反约束的转移被强制归零。这确保一旦系统从满足约束的初始状态开始,就永远不会跳到违反约束的状态。}

关键性质:如果$g_\ell(r) \leq 0$对所有当前可能状态$r$(即$p_i^{(r)} > 0 \Rightarrow g_\ell(r) \leq 0$),则$W_{r \to r'}^{(i,\ell)} > 0$仅当$g_\ell(r') \leq 0$。

这保证了约束集$\mathcal{C} = \{r : g_\ell(r) \leq 0\}$是不变集:
\begin{equation}
    p_i^{(r)}(0) = 0 \; \forall r \notin \mathcal{C} \quad \Rightarrow \quad p_i^{(r)}(t) = 0 \; \forall r \notin \mathcal{C}, \; t > 0.
\end{equation}

{\color{red}\textbf{[不变集的物理图像]:} 约束集像``禁区围栏''。系统像一个小球在允许区域内自由滚动,但围栏阻止它进入禁区。数学上,这通过将``跨栏''转移速率归零实现。}

\subsection{存在性和唯一性}

标准ODE理论保证,如果Q-矩阵元素有界且Lipschitz连续(在$\mathbf{p}_i$中),则解存在且唯一。

对于我们的系统,转移速率$W_{r \to r'}^{(i,\ell)}$不依赖于$\mathbf{p}_i$(它们依赖于值函数$Q_\ell$和约束$g_\ell$,但这些是外部给定或缓慢演化的)。因此Q-矩阵是常数矩阵(或缓慢时变),满足Lipschitz条件。

{\color{red}\textbf{[数学标准结果]:} 线性ODE $\frac{d\mathbf{x}}{dt} = A\mathbf{x}$的解总是存在且唯一:$\mathbf{x}(t) = e^{At}\mathbf{x}(0)$。Q-矩阵主方程属于这类,只要Q矩阵有界(我们有$|W_{r \to r'}| \leq \lambda_0 e^{\beta_\ell \|Q_\ell\|_\infty + \|\lambda_\ell\|_1 \|g_\ell\|_\infty}$)。}

形式解为:
\begin{equation}
    \mathbf{p}_i(t) = e^{Q_i t} \mathbf{p}_i(0),
\end{equation}
其中矩阵指数定义为$e^{Q_i t} = \sum_{n=0}^\infty \frac{(Q_i t)^n}{n!}$。

\subsection{非负性保持}

Q-矩阵的非对角元非负$(Q_i)_{rr'} \geq 0$对$r \neq r'$,这是关键性质。

根据Feller的定理,如果Q-矩阵满足:
\begin{enumerate}
    \item $(Q_i)_{rr'} \geq 0$ 对 $r \neq r'$
    \item $\sum_r (Q_i)_{rr'} = 0$ 对所有 $r'$
    \item 对角元 $(Q_i)_{rr} = -\sum_{r' \neq r} (Q_i)_{r'r} \geq -\infty$ (有界)
\end{enumerate}
则$e^{Q_i t}$的所有矩阵元非负,即$(e^{Q_i t})_{rr'} \geq 0$对所有$r, r', t \geq 0$。

{\color{red}\textbf{[Feller定理的物理意义]:} 这是``概率半群''理论的基石——如果今天概率非负(当然!),则明天也非负;如果今天概率和为1,则明天也为1。Q-矩阵的结构保证了演化算符$e^{Qt}$保持这些物理约束。}

这保证了:如果$\mathbf{p}_i(0) \geq 0$(分量非负)且$\sum_r p_i^{(r)}(0) = 1$,则对所有$t > 0$:
\begin{equation}
    \mathbf{p}_i(t) = e^{Q_i t} \mathbf{p}_i(0) \geq 0 \quad \text{且} \quad \sum_r p_i^{(r)}(t) = 1.
\end{equation}

\subsection{与离散时间的联系}

离散时间更新~\eqref{eq:micro-update}可视为连续时间主方程的离散化。

假设在小时间间隔$\delta t$内,转移概率为:
\begin{equation}
    \Prob(r_i(t + \delta t) = r' \mid r_i(t) = r) = W_{r \to r'}^{(i,\ell)} \delta t + o(\delta t).
\end{equation}

这对应于指数等待时间:智能体在规则$r$停留的时间服从参数$\sum_{r'} W_{r \to r'}^{(i,\ell)}$的指数分布,然后以概率$W_{r \to r'}^{(i,\ell)} / \sum_{r''} W_{r \to r''}^{(i,\ell)}$跳到$r'$。

{\color{red}\textbf{[指数等待时间的记忆缺失性]:} ``在规则$r$已经待了$s$时间还会再待$t$时间''的概率与$s$无关——这是指数分布的独特性质,对应于马尔可夫假设。物理上,智能体``不记得''何时开始使用当前规则,跳转仅依赖当前状态。}

离散时间的随机项$\epsilon_i(t)$来自这些指数等待时间的随机性。在$\delta t \to 0$极限下,离散更新收敛到连续主方程。

\subsection{平稳分布与详细平衡}

如果系统满足详细平衡(对所有$r, r'$):
\begin{equation}
    \pi_i^{(r)} W_{r \to r'}^{(i,\ell)} = \pi_i^{(r')} W_{r' \to r}^{(i,\ell)},
\end{equation}
则$\pi_i$是平稳分布:$Q_i \boldsymbol{\pi}_i = 0$。

对于Gibbs策略~\eqref{eq:gibbs-policy},详细平衡自动满足:
\begin{align}
    \frac{\pi_i^{(r)}}{\pi_i^{(r')}} &= \frac{\exp(\beta_\ell Q_\ell(r) + \lambda_\ell^\top g_\ell(r))}{\exp(\beta_\ell Q_\ell(r') + \lambda_\ell^\top g_\ell(r'))} = \exp(\beta_\ell \Delta Q_\ell(r \to r') + \lambda_\ell^\top \Delta g_\ell(r \to r')) \\
    &= \frac{W_{r' \to r}^{(i,\ell)}}{W_{r \to r'}^{(i,\ell)}}.
\end{align}

{\color{red}\textbf{[详细平衡的深刻意义]:} 这说在平衡态,每一对状态$(r, r')$之间的``概率流''精确平衡——从$r$到$r'$的流等于从$r'$到$r$的流。Gibbs策略自动实现这种微观可逆性,这是统计力学平衡态的标志。}

\subsection{总结}

我们已经证明:
\begin{enumerate}
    \item Q-矩阵的行和为零性质保证概率守恒
    \item 治理约束通过指示器$\mathbb{1}_{g_\ell(r') \leq 0}$保证约束集不变性
    \item 标准ODE理论保证解的存在性和唯一性
    \item Feller定理保证非负性保持
    \item Gibbs策略满足详细平衡,保证平稳分布存在
\end{enumerate}

{\color{red}\textbf{[主方程的地位]:} 主方程是离散状态随机过程的``牛顿第二定律''——它精确描述概率分布如何随时间演化。这里的证明确立了治理约束下主方程的良定性,为整个理论框架提供了严格的随机过程基础。}

